强化学习 MOC

学习笔记 强化学习 MOC
创建于 2026-05-09
目录

强化学习 MOC

Abstract

这是整个强化学习笔记库的导航页(Map of Content)。建议把它作为 Obsidian 主页或常驻收藏页使用。

1. 学习主线

强化学习的主线可以压缩成一句话:

智能体在环境中连续做决策,通过奖励信号学习一个能够最大化长期期望回报的策略。

围绕这句话,当前笔记库按以下顺序展开:

  1. 01-强化学习总览与学习路径
  2. 02-第1课 强化学习在解决什么问题
  3. 03-第2课 马尔可夫决策过程 MDP
  4. 04-第3课 回报 价值函数与Q函数
  5. 05-第4课 Bellman方程
  6. 06-第5课 动态规划 策略评估 策略迭代 价值迭代

2. 支撑型笔记

这些笔记不是主线课程,但用来解决学习中最容易卡住的地方:


3. 课程之间的依赖关系

强化学习基本思想
    ↓
MDP(问题建模)
    ↓
回报 / V / Q(长期价值评估)
    ↓
Bellman 方程(递推核心)
    ↓
动态规划(已知模型时求解最优策略)

你也可以理解成三层结构:


4. 当前应先吃透的关键词


5. 建议的复习路径

第一轮:建立整体直觉

按顺序看: - 02-第1课 强化学习在解决什么问题 - 03-第2课 马尔可夫决策过程 MDP - 04-第3课 回报 价值函数与Q函数

第二轮:抓住 RL 的数学主线

按顺序看: - 04-第3课 回报 价值函数与Q函数 - 05-第4课 Bellman方程 - 06-第5课 动态规划 策略评估 策略迭代 价值迭代

第三轮:专门扫清符号和公式障碍


6. 我当前对 RL 的一句话笔记

Summary

强化学习的核心不在于“背算法”,而在于先建立一种新的看问题方式: **状态是什么,动作是什么,奖励是什么,长期价值如何递推,策略如何据此改进。**

7. 后续可继续扩展的主题

当前这套笔记是前 5 课的基础版,后续最自然的扩展顺序是:

  • Monte Carlo
  • Temporal Difference
  • SARSA
  • Q-learning
  • DQN
  • Policy Gradient
  • Actor-Critic
  • PPO

你后面继续学时,建议保持同样的命名方式往下接: - 09 第6课 ... - 10 第7课 ...


8. 关联笔记